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Résumé. La fouille des motifs corrélés qui sont très peu fréquents est une pro- 
blématique de plus en plus intéressante dans la fouille de données. Dans ce cadre, 
les motifs corrélés rares selon la mesure de corrélation bond ont été étudiés dans 
un récent travail. La représentation concise exacte 1ZJ\AC1Z de l'ensemble de ces 
motifs a été alors proposée. Toutefois, aucun algorithme n'a été proposé pour 
extraire cette représentation et aucune évaluation expérimentale de cette repré- 
sentation n'a été réalisée. Dans ce papier ( l \ nous introduisons l'algorithme 
RcprMiner d'extraction de 1ZMC1Z. Nous présentons également l'algorithme 
EstMCR, d'interrogation de cette représentation ainsi que l'algorithme Re- 
GENERATIONMCR de dérivation de tous les motifs corrélés rares à partir de 
1ZA4C1Z. L'étude expérimentale réalisée montre des taux de compacité intéres- 
sants offerts par cette représentation. En outre, le processus de classification basé 
sur les règles génériques corrélées rares, dérivées à partir de 1ZA4C1Z, a prouvé 
l'utilité de l'approche proposée dans le cadre de la détection d'intrusions. 

1 Introduction et motivations 

L'intégration des mesures de corrélation lors de l'extraction des motifs rares est une piste 
prometteuse en fouille de données. Elle permet, d'une part, d'améliorer la qualité des connais- 
sances extraites en ayant un ensemble plus réduit contenant des motifs intéressants qui sont 
rares mais fortement corrélés. D'autre part, ceci renforce la qualité des règles d'association 
dérivées à partir de ces motifs corrélés rares. Par exemple, le motif composé par les items 
"Collier en or" et "Boucles d'oreilles" ou aussi celui composé de "Télévision" et "Lecteur 
DVD" correspondent à des motifs fortement corrélés mais peu fréquents dans les transactions 
d'une grande surface, et peuvent ainsi être omis dans un processus de fouille classique des 
motifs fréquents. L'utilité de tels motifs a été étudiée dans divers travaux tels que (Kim et al., 
2011; Omiecinski, 2003; Segond et Borgelt, 201 1; Surana et al., 2010; Xiong et al., 2006). 

Dans la littérature, diverses approches d'extraction traitant de cette problématique ont été 
ainsi proposées. Nous citons, par exemple, l'approche décrite dans (Sandler et Thomo, 2010). 
Cette dernière est basée sur l'idée naïve d'extraire l'ensemble de tous les motifs fréquents pour 

1. Ce travail propose une version étendue de l'article "Algorithmes d'extraction et d'interrogation d'une repré- 
sentation concise exacte des motifs corrélés rares : Application à la détection d'intrusions", In Actes de la Ylième 
Conférence Internationale Francophone Extraction et Gestion des Connaissances (EGC 2012), 31 Janvier - 03 Février 
2012, Bordeaux, France. 
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un seuil minimal de support conjonctif, minsupp, très bas puis de filtrer ces motifs récupérés 
par la contrainte de corrélation. Cette opération est très coûteuse en temps de traitement et en 
consommation de la mémoire à cause de l'explosion du nombre de candidats à évaluer. Une 
autre stratégie d'extraction des motifs rares fortement corrélés, consiste à extraire l'ensemble 
de tous les motifs corrélés sans aucune intégration de la contrainte de support. Cette idée 
permet de récupérer les motifs corrélés qui sont très peu fréquents, cependant, elle est aussi 
coûteuse. Nous citons dans ce cadre les approches proposées dans (Ma et Hellerstein, 2001) 
et (Cohen et al., 2000). Il est important de noter que la contrainte monotone de rareté n'a été 
jamais incorporée dans la fouille afin de récupérer l'ensemble total des motifs rares fortement 
corrélés. En effet, les algorithmes proposés dans (Brin et al., 1997) et (Grahne et al., 2000), 
bien qu'ils permettent d'intégrer cette contrainte dans le processus de fouille, se limitent à 
l'extraction d'un sous-ensemble restreint composé uniquement des motifs minimaux valides 
c.-à.-d. satisfaisant l'ensemble de contraintes posées. 

Dans (Bouasker et al., 2012), la représentation concise 1ZA4C1Z des motifs corrélés rares 
associés à la mesure de corrélation bond (Omiecinski, 2003) a été proposée. D'un point de 
vue qualitatif, le choix de cette mesure a été effectué sur la base d'une étude détaillée de 
la littérature montrant son utilité dans le maintien de motifs intéressants (Ben Younes et al., 
2012; Segond et Borgelt, 2011; Surana et al., 2010). D'un point de vue quantitatif, basée sur 
la notion clé de classe d'équivalence, cette représentation permet de ne présenter à l'utilisa- 
teur qu'un ensemble réduit de motifs tout en offrant la possibilité de dériver, si besoin, ceux 
non-retenus d'une manière simple et efficace. Toutefois, aucun algorithme n'a été proposé au- 
paravant afin d'extraire une telle représentation. A cet égard, nous proposons, dans ce papier, 
un nouvel algorithme de fouille de la représentation 1ZMC1Z. Les algorithmes d'interrogation 
de cette représentation et de dérivation de l'ensemble total des motifs corrélés rares sont aussi 
présentés. En plus, nous décrivons les résultats obtenus prouvant les taux de compacité impor- 
tants offerts par 1ZMC7Z ainsi que son apport dans la détection d'intrusions. Il est important de 
noter qu'aucun de ces algorithmes n'a été proposé et aucune expérimentation n'a été réalisée 
dans (Bouasker et al., 2012). 

Le reste de ce papier est organisé comme suit : la section suivante présente l'ensemble 
des motifs corrélés rares et la représentation concise 1ZA4C1Z qui lui est associée. Dans la 
section 3, nous introduisons l'algorithme RcprMiner d'extraction de 1ZJ\AC1Z. La section 4 
est dédiée à la présentation de l'algorithme d'interrogation de 1ZMC1Z, tandis que la section 
5 décrit le processus de régénération de l'ensemble de tous les motifs corrélés rares à partir 
de 1ZA4C1Z. L'étude expérimentale est détaillée dans la section 6. L'application de la repré- 
sentation 1ZA4C1Z dans le cadre de la détection d'intrusions est illustrée dans la section 7. La 
conclusion et les perspectives de travaux futurs sont récapitulées dans la section 8. 

2 Motifs corrélés rares : Définition et représentation concise 
2.1 Notions de base 

Nous commençons par définir d'abord une base de transactions. 

Définition 1 (Base de transactions) Une base de transactions est représentée sous la forme 
d'un triplet T> = (T, I, 1Z) dans lequel T et I sont, respectivement, des ensembles finis de 
transactions (ou objets) et d'items (ou attributs), et 1Z Ç T x X est une relation binaire entre 
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TAB. 1 - Un exemple d'une base de transactions. 



les transactions et les items. Un couple (t, i) € K dénote le fait que la transaction t G T 
contient l 'item i Ç.T. 

Dans ce travail, nous nous sommes principalement intéressés aux itemsets comme classe de 
motifs. Nous distinguons trois types de supports correspondants à tout motif non vide X : 

- Le support conjonctif : SConj(X) = \{t G T | V i G X : (t, i) G 1Z}\ 

- Le support disjonctif : SDisj(X) = \{t G T | 3 i G X : (t, i) G 1Z}\ 

- Le support négatif: SNeg(X) = \ {t G T | V i G X : (t, i) £ K}\ 

Exemple 1 Considérons la base de transactions illustrée par la table 1. Nous avons SConj(AD) 
= \{1}\ = 1, SDisj(AD) = \{ 1, 3, 5}| = 3, et, SNeg(AD) = \{2, 4}\ = 2 ( 2) . 

La fréquence conjonctive (resp. disjonctive et négative) est égale au support conjonctif (resp. 
disjonctif et négatif) divisé par |T|. Dans la suite, nous allons utiliser les supports d'un motif. 
Comme nous nous intéressons aux motifs corrélés rares associés à la mesure de corrélation 
bond (Omiecinski, 2003), la définition suivante présente l'expression de bond telle que redé- 
finie dans (Ben Younes et al., 2012). Cette nouvelle expression permet de faire le lien entre la 
mesure bond et les supports conjonctif et disjonctif, cette mesure étant égale au rapport entre 
ces deux derniers. 

Définition 2 (Mesure bond) Soit un motif non vide X Ç X. La mesure bond de X est égale 
à : 

bond(X) = S SD°isj(X) 

Ainsi, connaissant la valeur de bond et le support conjonctif d'un motif, il est aisé de dériver 
son support disjonctif et par conséquent son support négatif. Dans la sous-section suivante, 
nous présentons l'ensemble A4C1Z des motifs corrélés rares associés à la mesure bond. 



2.2 L'ensemble MCTZ des motifs corrélés rares 

Les motifs corrélés rares ont été formellement définis dans (Bouasker et al., 2012) comme 
suit : 

Définition 3 (Motifs corrélés rares) Étant donnés les seuils minimaux de support conjonctif 
et de corrélation minsupp et minbond, respectivement, l'ensemble MCTZ des motifs corrélés 
rares est : A4C1Z = {X Ç X\ SConj(X) < minsupp et bond(X) > minbond}. 
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FlG. 1 - Espace des motifs corrélés rares pour minsupp = 4 et minbond = 0,2. 



Exemple 2 Considérons la base illustrée par la table 1 pour minsupp = 4 et minbond = 0,2. 
L'ensemble MC1Z est composé des motifs suivants où chaque triplet représente le motif, sa 
valeur de support conjonctif et sa valeur de bond : A4C1Z = {(A, 3, |), (D, 1, -), (AB, 2, |), 
(AC, 3, §), (AD, 1, ±), (AE, 2, §), (BC, 3, §), (CD, 1, \), (CE, 3, §), (ABC, 2, §), (ABE, 2, 
§), (ACD, 1, i), (ACE, 2, |), (BCE, 3, |), (ABCE, 2, |)}. Comme le montre cette figure, l'en- 
semble M.C1Z correspond aux motifs localisés en dessous de la bordure de la contrainte anti- 
monotone composée des motifs corrélés maximaux, et au dessus de la bordure de la contrainte 
monotone composée des motifs rares minimaux. 

L'ensemble A4C1Z des motifs corrélés rares associés à la mesure bond résulte ainsi de la 
conjonction de deux contraintes de types opposés, à savoir la contrainte anti-monotone de 
la corrélation et la contrainte monotone de la rareté. Cette nature opposée des contraintes trai- 
tées rend complexe la localisation de l'ensemble des motifs corrélés rares. Ceci a motivé les 
auteurs dans (Bouasker et al., 2012) à introduire la représentation concise exacte 1ZMC1Z. 

2.3 La représentation concise exacte 1ZMC1Z 

La représentation concise exacte proposée constitue une réduction sans perte d'informa- 
tions de l'ensemble A4C1Z. Pour cela, les auteurs ont recouru à la notion de bordure afin de 
délimiter l'espace associé à l'ensemble MC7Z dans le treillis des motifs. Par ailleurs, l'en- 
semble des motifs corrélés rares a été ainsi partitionné en groupes disjoints, appelés "classes 
d'équivalence corrélées rares" en utilisant l'opérateur de fermeture fbond (Ben Younes et al., 
2012) associé à la mesure bond et défini comme suit. 

Définition 4 (Opérateur fbond) L'opérateur fbond ■ V(T) — > V(X) associé à la mesure bond 
est défini comme suit : fbond(X) = XU{i£l\X \ bond(X) = bond(X U {«})}■ 



2. Nous employons une forme sans séparateur pour les ensembles d'items : par exemple, AD représente l'ensemble 
{A, D}. 
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Chacune des classes d'équivalences induites par l'opérateur fb on d regroupe les motifs parta- 
geant les mêmes supports conjonctifs, disjonctifs et la même valeur de la mesure de corrélation 
bond. Les éléments maximaux des classes d'équivalence corrélées rares composent l'ensemble 
MTC1Z des motifs fermés corrélés rares et les éléments minimaux composent l'ensemble 
MMCTZ des motifs minimaux corrélés rares, qui ont été définis comme suit. 

Définition 5 (Motifs fermés corrélés rares) L'ensemble MTCTZ des motifs fermés corrélés 
rares est défini par : MTCTZ = {X G MCK\ V X\ D X : bond(X) > bond(Xi)} 

Définition 6 (Motifs minimaux corrélés rares) L'ensemble MMCTZ des motifs minimaux 
corrélés rares est défini par : MMCTZ = {X e MCTZ\ VIiCl: bond(X) < bond(X 1 )}. 

Exemple 3 Soit la base illustrée par la table 1 pour minsupp = 4 et minbond = 0,2. Nous 
avons, par exemple, f bond (AB) = ABCE, l'ensemble MTCTZ = {A, D, AC, AD, ACD, BCE, 
ABCE}. Par ailleurs, l'ensemble MMCTZ = {A, D, AB, AC, AD, AE, BC, CD, CE}. Il est 
intéressant de remarquer que les motifs A, D, AC et AD sont à la fois fermés et minimaux. 

En se basant sur ces deux ensembles précédents, la représentation 7ZMC1Z de l'ensemble 
MC7Z a été proposée. 

Définition 7 (Représentation TZMCTZ) La représentation TZMCTZ est définie comme suit : 
TZMCTZ = MTC1Z U MMCTZ. 

Exemple 4 Considérons la base de transactions donnée dans la table 1, pour minsupp = 4 et 
minbond = 0,2. La représentation 1ZMC1Z = {(A, 3, |), (D, 1, y), (AB, 2, |), (AC, 3, |), (AD, 
1, |), (AE, 2, §), (BC, 3, f ), (CD, 1, \), (CE, 3, §), (ACD, 1, \), (BCE, 3, |), (ABCE, 2, §)}. 

Cette représentation a été prouvée dans (Bouasker et al., 2012) comme étant exacte, c.-à.- 
d. permettant la régénération de tous les motifs corrélés rares sans perte d'informations. Par 
ailleurs, sa taille ne dépasse jamais celle de MC1Z. En effet, 1ZMC1Z = MTC1Z U MMCTZ 
ç MCTZ. 

Nous introduisons, dans ce qui suit, l'algorithme RcprMiner permettant l'extraction de 
la représentation concise exacte TZMCTZ. 

3 Algorithme RcprMiner d'extraction de 1ZMC1Z 
3.1 Description et pseudo code de l'algorithme RcprMiner 

L'algorithme RcprMiner* 3 >, dont le pseudo-code est donné par l'algorithme 1, prend 
en entrée une base de transactions T>, un seuil minimal de support conjonctif minsupp ainsi 
qu'un seuil minimal de corrélation minbond. Cet algorithme permet de déterminer, à partir 
du contexte T>, la représentation TZMCTZ composée de l'ensemble MMCTZ des motifs mini- 
maux corrélés rares et de l'ensemble MTCTZ des motifs fermés corrélés rares munis de leurs 
supports conjonctifs et de leurs valeurs de la mesure bond. 

Le déroulement de l'algorithme RcprMiner est illustrée par la figure 2. Cet algorithme 
se réalise en deux principales étapes. La première étape est dédiée à l'extraction, à partir de 



3. Acronyme de Rare Correlated Patterns Représentation Miner. 



Fouille d'une représentation concise des motifs corrélés rares 



V, de l'ensemble A4CAiax des motifs corrélés maximaux grâce à la procédure Extrac- 
TION_MCMax (cf. ligne 4). Cette étape consiste à résoudre un problème classique permettant 
le repérage des éléments maximaux d'une théorie, les motifs maximaux associés à l'ensemble 
des motifs corrélés dans notre cas. 
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FlG. 2 - Schéma illustratif de déroulement de l'algorithme RcPRMlNER. 



La deuxième étape consiste à intégrer la contrainte de rareté ainsi que les motifs corrélés maxi- 
maux précédemment extraits dans un processus de fouille de la représentation 1ZA4C1Z. A 
chaque itération de cette deuxième étape, l'ensemble CandV n est composé des candidats po- 
tentiels de taille n générés, moyennant la procédure Apriori_Gen (cf. ligne 15), à partir des 
candidats retenus de taille (n — 1). Les candidats de l'ensemble CandVn seront ainsi élagués 
(cf. ligne 11) selon différentes stratégies d'élagage. Les éléments maintenus seront insérés dans 
l'ensemble Cand n . Les stratégies d'élagage adoptées correspondent à : 

(i) L'élagage de tout candidat inclus dans un motif corrélé maximal fréquent, puisqu'il 
sera corrélé fréquent d'après la propriété de l'idéal d'ordre des motifs corrélés fréquents (la 
contrainte de corrélation étant anti-monotone). 

(ii) L'élagage de tout candidat non inclus dans un motif corrélé maximal rare, puis- 
qu'il ne sera pas corrélé. 

(iiï) L'élagage par rapport à la propriété d'idéal d'ordre des motifs minimaux cor- 
rélés : en effet, les motifs minimaux corrélés vérifient la propriété de l'idéal d'ordre. Ainsi, 
tout candidat minimal corrélé possédant un sous-ensemble non minimal corrélé, sera élagué 
vu qu'il ne sera pas un motif minimal corrélé. 

Notons que tout candidat potentiel inclus dans un motif corrélé maximal rare est forcé- 
ment corrélé. Toutefois, nous ne pouvons rien confirmer quant à sa rareté. A cet égard, il sera 
retenu dans l'ensemble Cand n et son statut de fréquence sera vérifié grâce à la procédure Ex- 
TRACTlON_MMCR_MFCR, (cf. ligne 13), dont le pseudo code est donné par l'algorithme 
2. Cette procédure permet de déterminer les motifs minimaux corrélés rares à partir des can- 
didats retenus dans l'ensemble Cand n . Pour cela, la valeur de bond de chaque candidat sera 
comparée à celles de ses sous-ensembles directs pour déterminer s'il est minimal dans sa classe 
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d'équivalence ou non. En effet, tout candidat ayant la même valeur de corrélation qu'un de ses 
sous-ensembles n'est pas minimal de sa classe. Les motifs minimaux corrélés rares identifiés 
seront ainsi insérés dans l'ensemble A4A4C1Z. Une fois les minimaux repérés, leurs fermetures 
sont calculées et insérées dans l'ensemble A4J-C1Z. Par ailleurs, dans l'ensemble Cand n , seuls 
les candidats minimaux de leurs classes d'équivalence seront maintenus. Ceci permet d'utiliser 
Cand n dans l'élagage des candidats potentiels de taille (n + 1) (cf. la stratégie d'élagage (iii) 
de la ligne 11). 

Exemple 5 Considérons la base de transactions donnée par la table 1. L'algorithme RCPR- 
MlNER se déroule de la manière suivante pour minsupp = 3 et minbond = 0,20. Nous avons, 
initialement, l'ensemble A4CA4ax = {(ACD, 1, j), (ABCE, 2, |)}. Étant donné que tous les 
motifs de cet ensemble sont rares, nous avons donc A4CA4axTZ = {(ACD, 1, 4), (ABCE, 2, 
|)}. Ensuite, nous avons CandVi = {A, b, C, D, e}. Il en dérive, MMCTZi = {(D, 1, \)} 
et M.J-C1Z\ = {(D, 1, j)}. L'ensemble CandVi est ensuite généré : CandP2 = {AB, AC, 
AD, AE, BC, BE, BD, CE, CD, DE}. Suite à l'application des stratégies d'élagage, nous avons, 
MMCK 2 = {(AB, 2, §), (AE, 2, §), (AD, 1, |), (CD, 1, |)}. Les motifs fermés associés à ces 
minimaux, à savoir (AD, 1, i), (ACD, 1, j) et (ABCE, 2, |), sont alors ajoutés à A4J-C1Z. Dans 
la troisième itération, nous avons CandVz = {ABC, ABD, ABE, ACD, ACE, ADE, BCD, BCE, 
CDE}. Aucun de ces candidats n 'est minimal rare corrélé. Ainsi, AdAdClZ?, = {0}. L'ensemble 
des candidats CandVi est par conséquent vide. Ainsi, les itérations prennent fin donnant ainsi 
comme résultat les motifs minimaux corrélés rares MMCR = {(D, 1, \), (AB, 2, §), (AE, 
2, §), (AD, 1, i), (CD, 1, i)} et leurs fermés MTCK = {(D, 1, ±), (AD, 1, |), (ACD, 1, \), 
(ABCE, 2, §)}. 

3.2 Preuves théoriques 

Nous démontrons, dans ce qui suit, les propriétés théoriques de validité et de terminaison 
de l'algorithme RcprMiner. 

Proposition 1 L'algorithme RCPRMINER génère tous les motifs minimaux et fermés corrélés 
rares munis de leurs supports conjonctifs et de leurs valeurs de la mesure bond. 

Preuve. L'algorithme RcprMiner est un algorithme par niveau permettant d'extraire avec 
exactitude tous les éléments de la représentation 1ZM.C1Z. En effet, lors de la première étape, 
les motifs corrélés maximaux sont identifiés puis ils sont répartis suivant leur statut de fré- 
quence en des motifs corrélés maximaux fréquents et des motifs corrélés maximaux rares. Ces 
ensembles de motifs seront utilisés pour l'élagage des candidats. Ensuite, les motifs minimaux 
corrélés rares de l'ensemble A4 MC1Z seront extraits et leurs fermés respectifs seront calculés 
et insérés dans l'ensemble MTCR. d'une manière itérative. 

En effet, lors de chaque itération, un ensemble de candidats de taille n est généré à partir 
des candidats de taille n — 1. Chaque motif candidat doit être inclus dans un motif corrélé 
maximal rare et ne doit posséder aucun sous-ensemble non minimal corrélé. Ensuite, les sup- 
ports conjonctifs, disjonctifs, les fermetures conjonctives et les fermetures disjonctives de tous 
les candidats seront calculés moyennant un balayage du contexte d'extraction. La valeur de 
la mesure bond est ensuite calculée pour tous les candidats retenus. Par la suite, tout candi- 
dat possédant un sous-ensemble de même mesure bond que lui sera élagué, vu qu'il n'est pas 
minimal corrélé. 
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Algorithme 1 : RcprMiner 



Données : Une base de transactions T> = (T, X, 1Z), minbond, et minsupp. 
Résultats : La représentation concise exacte 1ZMC1Z = MMCTZ U MTCTZ. 
1 Début 

1ZMC1Z:=$\Cand :={0); 
/* La première étape */ 

MCMax := EXTRACTION_MCMAX(r>,ramèo;îd); 
/* La deuxième étape */ 

MCMaxT := {X G MCMax \ X.SConj > minsupp} I* X.SConj correspond au 
support conjonctif de X */; 

MCMaxH := {X G MCMax \ X.SConj < minsupp} ; 

CandVi := {i \ i G 1} /* CandVn correspond aux candidats potentiels de taille n */; 
tant que (CandVn / 0) faire 

/* Elagage des candidats potentiels *l 

Cand n := CandVn \ {X„ G CandVn | (3 Z G MCMwiT : X n C Z) ou ($ Z G 
MCMslxTZ :X n ÇZ) ou (3 F„_i C X n : Y n -i i Cand n -i)}\ 
/* Détermination des motifs minimaux corrélés rares de taille n et calcul de leurs 
fermetures */ 

1ZMC1I := TLMCTL U Extraction_MMCR_MFCR(D, Cand n , minsupp); 
n := n +1; 

CandVn := APRIORI_GEN(Cand n _i) ; 
retourner TZMCTZ; 
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L'ensemble des candidats englobe, à ce niveau, tous les motifs minimaux corrélés. Ainsi, 
chaque candidat rare sera inséré dans l'ensemble M.M.CTL n des motifs minimaux corrélés 
rares de taille n. Par conséquent, le motif fermé par fbond correspondant au motif minimal cor- 
rélé rare en cours, sera calculé. Il résulte, en effet, de l'intersection entre son fermé conjonctif 
et son fermé disjonctif. Étant donné que les supports conjonctifs, disjonctifs et la mesure bond 
d'un fermé sont égaux à ceux du motif minimal correspondant, alors nous déduisons que les 
caractéristiques de chaque fermé par l'opérateur de fermeture fbond sont attribués d'une ma- 
nière exacte. Ainsi, l'ensemble A4A4ClZ n ne contient que les motifs minimaux corrélés rares 
de taille n et l'ensemble A4J-ClZ n ne contient que les fermés corrélés rares de taille n. 

L'algorithme marque sa fin d'exécution lorsqu'il n'y a plus de motifs candidats à générer. 
A la fin de cette étape l'ensemble MMCTZ est composé de tous les motifs qui sont minimaux 
corrélés rares et leurs fermés respectifs sont inclus dans l'ensemble M.TC1Z. 

Nous concluons que l'algorithme RcprMiner permet d'extraire avec exactitude tous les 
éléments des ensembles MMCTZ et MJ-C1Z munis de leurs supports conjonctifs et de leurs 
valeurs de la mesure bond. Cet algorithme est donc valide et complet. 

Proposition 2 L 'algorithme RCPRMINER se termine correctement. 

Preuve. Le nombre des motifs générés par RcprMiner est fini. En effet, le nombre de motifs 
candidats pouvant être générés à partir d'un contexte d'extraction ayant ?î items distincts, est 
égal au plus à 2 n . De plus, le nombre d'opérations effectuées, afin de traiter chaque candidat 
est fini. Par conséquent, l'algorithme RcprMiner se termine correctement. 
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Algorithme 2 : Extraction_MMCR_MFCR 



Données : La base de transactions T>, l'ensemble Cand„ des motifs candidats de taille n, et le 

seuil minimal de support minsupp. 
Résultats : L'ensemble MMCTln des motifs minimaux corrélés rares de taille n et l'ensemble 

MTCTl des motifs fermés corrélés rares. L'ensemble Cand n contenant 

uniquement les motifs minimaux corrélés. 



1 Début 

2 



pour chaque (Transaction T de T>) faire 
pour chaque (X n G Cand„) faire 

u) := X n n X I* X corresponds aux items constituant la transaction T */; 
si (w = 0) alors 

X n .CmpDisj := X n .CmpDisj UX/* X„.CmpDisj englobe les items 
qui apparaissent dans les transactions ne contenant aucun item de X n , par 
conséquent, ces items n'appartiennent donc pas à la fermeture disjonctive du 
candidat X n .*l ; 

X n .SDisj := Xn.SDisj + 1 /* X n -SDisj correspond au support disjonctif de X n */; 
si (lu — X„ ) alors 

X„.SConj := X n -SConj + 1 ; 
si X n .f c = alors 
X n .f c := oj; 

X n .f c '•— Xn-fc H U)\ 

pour chaque (X„ € Cand n ) faire 

X n .bond := I* X n est forcément corrélé puisqu'il est inclus dans un motif 

corrélé maximal*/ ; 

si (3 y„_i C X n | bond(Y n -\) — bond(X n )) alors 

Candn '.= Candn \ {X n } /* X n n'est pas un motif minimal corrélé, il est donc 
élagué de l'ensemble Candn et ne sera plus utilisé pour la génération de nouveaux 
candidats */; 
si (Xn.SConj < minsupp) alors 

/* X n est un motif minimal corrélé rare */ 
MMCTZn := MMCTln U (X n , X n .SConj, X n .bond); 
X n .fd :=l\Xn-CmpDisj; 

X n .fhond '■= X n .fd l~l X n -fc\ 
l := \X n .fbond\ ! 

MTCTli := MICTLi U (X n .f bond , X„.SConj, Xn.bond); 
MTCTZ := MTCTl U MFCTZù 



retourner (MMCTln U MTCTL); 



26 Fin 



Ainsi, nous avons démontré les propriétés théoriques de validité et de terminaison de l'al- 
gorithme RcprMiner d'extraction de la représentation 1ZA4C7Z. Dans la section suivante, 
nous introduisons l'algorithme EstMCR d'interrogation de cette représentation. 
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4 Algorithme EstMCR d'interrogation de 1ZMC1Z 

L'interrogation de la représentation permet de déterminer pour un motif donné s'il est cor- 
rélé rare. Si c'est le cas, alors les valeurs de son support conjonctif, disjonctif, négatif, ainsi 
que la valeur de sa mesure bond, seront régénérées grâce à la représentation 1ZMC7Z. Ceci est 
réalisé moyennant l'algorithme EstMCR dont le pseudo-code est donné par l'algorithme 3. 

L'algorithme EstMCR distingue trois différents cas. Le premier se réalise lorsque le motif 
considéré appartient à la représentation 1ZM.C1Z. Son support disjonctif et son support négatif 
seront ainsi aisément dérivés (cf. lignes 3^1). Le deuxième cas se présente lorsque le motif X 
n'appartient pas à la représentation 1ZA4C1Z mais il est compris entre deux éléments de cette 
représentation (cf. ligne 7). Ainsi, le motif fermé associé au motif X correspond au plus petit 
sur-ensemble, selon l'inclusion ensembliste, appartenant à la représentation 1ZJ\AC1Z (cf. ligne 
8). Le motif X partage ainsi les mêmes valeurs des différents supports et de bond que son 
fermé (cf. ligne 9-12). Dans le troisième et dernier cas, le motif X n'appartient pas à 1ZMC1Z 
et n'est pas compris entre deux éléments de 1ZA4C1Z. Ce motif n'est en conséquent pas corrélé 
rare et l'algorithme retourne un résultat vide (cf. ligne 15). Nous illustrons dans la suite par un 
exemple l'exécution de l'algorithme EstMCR. 

Exemple 6 Soit la représentation 1ZA4C1Z donnée par l'exemple 4 (cf. page 5). Considérons 
le motif ACE. Nous avons AE Ç ACE et ACE Ç ABCE. Ainsi, le motif ACE est corrélé rare. Par 
ailleurs, sa fermeture est ABCE. Par conséquent, ACE.SConj = ABCE.SConj = 2, ACE.SDisj 
= ABCE.SDisj = 5, ACE.SNeg = \T\ - ACE.SDisj = 5 - 5 = et ACE.bond = ABCE.bond = |. 
Considérons le motif BC, ce dernier n'appartient pas à 1ZA4C1Z et il n'est pas compris entre 
deux éléments de la représentation. Ainsi, l'algorithme EstMCR retourne un résultat vide 
pour indiquer que le motif BCn 'est pas un motif corrélé rare. 



5 Algorithme RegenerationMCR de régénération de MC1Z 

La régénération de l'ensemble AACTZ à partir de 1ZA4C1Z s'effectue grâce à l'algorithme 
RegenerationMCR dont le pseudo-code est donné par l'algorithme 4. Cet algorithme four- 
nit l'ensemble A4C1Z des motifs corrélés rares munis de leurs supports conjonctifs et de leurs 
valeurs de la mesure bond. L'exemple suivant illustre l'exécution de cet algorithme. 

La tâche de régénération s'effectue à travers l'algorithme RegenerationMCR de la ma- 
nière suivante. D'abord, tous les éléments de la représentation 1ZA4C1Z seront insérés dans 
l'ensemble MC1Z (cf. ligne 4) initialement vide. Par la suite, l'algorithme parcours l'ensemble 
A4A4C1Z des motifs minimaux et affecte à chaque motif minimal M son fermé F (cf. ligne 6). 
Puis l'ensemble de motifs compris entre le minimal M et son fermé F est généré (cf. ligne 7). 
Chaque élément de cet ensemble est un motif corrélé rare et partage le même support conjonc- 
tif et la même valeur de bond que son fermé F et sera inséré dans l'ensemble A4C1Z (cf. ligne 
10). Lorsque tous les motifs générés sont insérés dans l'ensemble AdClZ, alors l'algorithme 
retourne l'ensemble total des motifs corrélés rares M.CTL (cf. ligne 11). 

Exemple 7 Considérons la représentation concise exacte donnée par l'exemple 4 (cf. page 5). 
D 'abord, l 'ensemble A4CTZ est initialisé par l 'algorithme REGENERATIONMCR à l 'ensemble 
vide. Tous les éléments de 7ZA4C1Z seront ensuite insérés dans l 'ensemble A4C1Z. Ainsi, AiClZ 
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Algorithme 3 : EstMCR 



Données : La représentation TZMCTZ = MMCTZ U MTCTZ, un motif X, et le nombre de 

transactions de la base, c.-à.-d., \T\. 
Résultats : Le support conjonctif, disjonctif, négatif et la valeur de la mesure bond si le motif 
X est corrélé rare. Sinon, un résultat vide est retourné. 

1 Début 

si (X G TZMCTZ) alors 

X.SDisj = ~j^h~~d^ ^* X.SDisj correspond au support disjonctif de X */ ; 
X.SNeg = |T| — X.SDisj I* X.SNeg correspond au support négatif de X */; 
retourner {X, X.SConj, X.SDisj, X.SNeg, X.bond} ; 
>lnon 

si (3 Y, Z e TZMCTZ | Y C X et X C Z) alors 

F := minç {X 1 € TZMCTZ \ X C X x } /* F dénote la fermeture de X, repérée 
étant le plus petit motif par inclusion ensembliste de la représentation englobant X 

*/; 

X.SConj = F.SConj; 
X.bond = F. bond; 

X.SNeg = \T\ - X.SDisj; 

retourner {X, X.SConj, X.SDisj, X.SNeg, X.bond} ; 
sinon 

retourner 0; 



16 Fin 



= {(D, 1, i), (AB, 2, |), (AD, 1, \), (AE, 2, §), (CD, 1, \), (ACD, 1, ±), (ABCE, 2, |)}. Parla 
suite, nous générons les motifs ABE et ABC compris entre le minimal (AB, 2, |) et son fermé 
(ABCE, 2, |) et le motif ACE compris entre le minimal (AE, 2, |) et son fermé (ABCE, 2, |). 
Les motifs ABE, ABC et ACE générés seront alors insérés dans l'ensemble M.C1Z. Ce dernier 
englobe, ainsi, tous les motifs corrélés rares. MCTl = {(D, 1, i), (AB, 2, §), (AD, 1, |), (AE, 
2, §), (CD, 1, i), (ABC, 2, §), (ABE, 2, §), (ACD, 1, \), (ACE, 2, §), (ABCE, 2, §)}. 

6 Evaluation expérimentale de la représentation TZMCTZ 

Notre objectif principal, dans cette section, est de prouver expérimentalement le taux de 
compacité de la représentation TZMCTZ. Les différentes expérimentations réalisées ont été 
menées sur une machine munie d'un processeur Intel Dual Core £?5400, ayant une fréquence 
de 2, 7GHz avec 4Go de mémoire vive, tournant sur une plateforme Linux Ubuntu 10.04. Les 
expérimentations ont été réalisées sur différentes bases de test benchmark denses et éparses 
(4) . 

Les résultats expérimentaux les plus représentatifs sont donnés par la figure 3. Nous consta- 
tons, d'après ces résultats, que les taux de réduction obtenus pour la représentation proposée 
et pour différents seuils minsupp et minbond sont intéressants. Par ailleurs, la représentation 



4. Disponibles à l'adresse suivante : http ://ûmi. es. helsinki.fi/data. 
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Algorithme 4 : RegenerationMCR 



Données : La représentation concise exacte TZMCTZ = MMCTZ U MTCTZ. 
Résultats : L'ensemble MCTZ des motifs corrélés rares munis de leurs valeurs du support 
conjonctif et de leurs valeurs de la mesure bond. 

1 Début 

MCTZ := 0; 

pour chaque (X 6 TZMCTZ) faire 
_ MCTZ := MCTZ U {X, X.SConj, X.bond] ; 

pour chaque (M e MMCTZ) faire 

F := minç{A/i £ MTCTZ \ M C Mi} /* F dénote la fermeture du motif minimal 
corrélé rare M, repérée étant le plus petit motif par inclusion ensembliste de la 
représentation englobant M */ ; 
pour chaque (X \ M C X et X C F) faire 
X.SConj = F.SConj; 
X.bond = F. bond; 

MCTZ := MCTZ U {X, X.SConj, X.bond} ; 



retourner MCTZ; 



12 Fin 



Mushroom (minbond =0.15) Pumsb* (minbond =0.5) Accidents (minsupp =50%) 




MCR| — i — |RMCR| —x— |MCR| — i — |RMCR| — x— |MCR| — i — |RMCR| — x— 



FlG. 3 - Variation des cardinalités de la représentation TZA4C7Z versus celles de l'ensemble 
M.C1Z en fonction de minsupp et de minbond. 



TZM.C1Z est prouvée être une couverture parfaite de l'ensemble M.CTZ dans le sens que sa 
taille ne dépasse jamais celle de ce dernier. Considérons par exemple, la base MUSHROOM 
pour minsupp = 35% et minbond = 0,15 : \KMCR\ = 1 810, et \MCK\ = 100 156. Le taux 
de compacité dans ce cas est de 98%. Ces résultats sont obtenus grâce à la propriété de non- 
injectivité de l'opérateur de fermeture fbond- En effet, cet opérateur permet de regrouper les 
motifs ayant les mêmes propriétés dans une même classe d'équivalence. Ceci permet ainsi 
d'éviter la redondance des éléments maintenus. Nous avons, par exemple, pour la base Mush- 
ROOM : | MMCTZ\ = 1 412 et \MTCTZ\ = 652. Puisque la représentation 71MCU correspond 
à l'union sans redondance des ensembles M.M.C1Z et M.TCR., nous avons toujours \R,MIC1Z\ 
< \MMCTl\ + \MTCTZ\. 

Dans ce qui suit, nous proposons une application de 1ZM.CTZ dans le cadre de la détection 
d'intrusions dans les réseaux informatiques. 
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7 Application de la représentation 1ZMC1Z dans la détection 
d'intrusions 

Nous présentons dans cette section, l'application de la représentation 1ZA4C7Z dans un pro- 
cessus de classification basé sur les règles d'association corrélées rares. En effet, les ensembles 
de motifs A4A4C7Z et MFC1Z, composant la représentation 1ZA4C7Z, seront incorporés dans 
la dérivation des règles d'association génériques corrélées rares de la forme Gen =>- Fermé \ 
Gen, avec Gen E MMCK et Fermé e MTCK ( 5) . 

Ensuite, à partir des règles génériques obtenues, nous extrayons les règles de classification. 
En effet, les règles génériques obtenues seront filtrées afin de ne garder que les règles géné- 
riques ayant le libellé de la classe d'attaque dans la partie conclusion. Ces règles seront alors 
communiquées au classifieur que nous avons conçu. Ce dernier permet d'élaborer la tâche de 
classification et retourne le taux de détection pour chaque classe d'attaque. Nous présentons 
dans la suite l'évaluation expérimentale de la classification basée sur les règles corrélées rares 
pour la base de données KDD 99 ( 6 \ 

7.1 Description de la base KDD 99 

Chaque objet de la base KDD 99 représente une connexion du flot de données. Une 
connexion est ainsi étiquetée comme Normale ou Attaque. La base KDD 99 décrit 38 ca- 
tégories d'attaques réparties en quatre classes d'attaques, à savoir Dos, Probe, R2L et U2R, 
et une classe NORMALE. Cette base contient 4 940 190 objets dans la base d'apprentissage et 
chaque objet est caractérisé par 41 attributs. Nous considérons, dans ce travail, 10% de l'en- 
semble d'apprentissage dans la phase de construction du classifieur, contenant ainsi 494 019 
objets. L'ensemble d'apprentissage contient 79,20% (respectivement, 0,83%, 0,22% et 0,10%) 
d'attaques Dos (respectivement, Probe, R2L et U2R), et le reste, c.-à.-d. 19,65%, concerne 
des connexions étiquetées Normale. 

7.2 Discussion des résultats obtenus 

Les résultats expérimentaux obtenus sont donnés par la table 2, avec "RAs" et "TD" les 
abréviations respectives de "Règles d'Association" et "Taux de Détection", et minconf dénote 
le seuil minimal de la mesure confiance (Agrawal et Srikant, 1994). Nous entendons aussi par 
"Phase de construction" l'étape de l'extraction de la représentation 1ZM.C1Z tandis que par 
"Phase de classification", nous entendons l'étape de dérivation des règles de classification à 
partir de la représentation 1ZA4C1Z et leur application dans la détection d'intrusions. 

Nous constatons que les taux de détection les plus intéressants sont achevés pour les classes 
d'attaques NORMALE et Dos. En effet, ceci est expliqué par la taille élevée en nombre de 
connections de ces deux classes d'attaques. Ceci confirme que notre approche proposée dans 
ce travail présente de meilleures performances pour des bases volumineuses. Nous remarquons 
aussi que ce taux de détection varie d'une classe d'attaque à une autre. Par exemple, pour la 
classe U2R, ce taux est relativement faible par rapport aux autres classes d'attaques. 

5. Par "générique", nous entendons que ces règles sont à prémisse minimale et à conclusion maximale, selon la 
relation d'inclusion ensembliste. 

6. La base KDD 99 est disponible à l'adresse suivante : http ://kdd.ics. uci.edu/databases/kddcup99/kddcup99. html. 
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Nous concluons aussi, d'après les résultats de la table 2, que les coûts de calcul varient 
d'une classe d'attaque à une autre. Toutefois, pour les différentes classes d'attaques considé- 
rées, la phase de construction est plus coûteuse en temps d'exécution que la phase de clas- 
sification. Ceci est justifié par le fait que l'étape de construction englobe l'extraction de la 
représentation concise 1ZMC1Z, or cette opération est NP-difficile (Boley et Gartner, 2009) 
étant donnée la complexité liée à la localisation des deux bordures associées aux contraintes 
de corrélation et de rareté. 



Classe 


minsupp 


minbond 


minconf 


# RAs 


# RAs 


# RAs 


TD 


Temps CPU (en secondes) 


de l'attaque 


(%) 






génériques 


génériques 


génériques 


(%) 


Phase de 


Phase de 










exactes 


approximatives 


de classification 




construction 


classification 


DOS 


80 


0,95 


0,90 


4 


31 


17 


98,68 


120 


1 


Probe 


60 


0,70 


0,90 


232 


561 


15 


70,69 


55 


1 


R2L 


80 


0,90 


0,70 


2 


368 


1 


81,52 


1 729 


1 


U2R 


60 


0,75 


0,75 


106 


3 


5 


38,46 


32 


1 


Normale 


85 


0,95 


0,95 





10 


3 


100,00 


393 


15 



TAB. 2 - Évaluation des règles d'association corrélées rares pour la base KDD 99. 



La table 3 compare les résultats obtenus par notre approche, basée sur les règles d'asso- 
ciation corrélées rares, à ceux offerts par les approches basées respectivement sur les arbres de 
décisions et les réseaux bayésiens (Ben Amor et al., 2004). Il est à noter que le choix de ces 
approches pour ce comparer avec est argumenté par le fait que celle utilisant les arbres de déci- 
sions est aussi basée sur les règles d'association. Par ailleurs, l'apprentissage est supervisé dans 
les différentes approches comparées. Les résultats obtenus prouvent que notre approche offre 
dans différentes situations de meilleures performances que les autres approches. En effet, elle 
est la meilleure pour les classes d'attaques Dos, R2L et U2R. Bien que aussi meilleurs pour 
la classe NORMALE, les résultats obtenus sont très proches de ceux obtenus avec les arbres 
de décision. Les réseaux bayésiens présentent de meilleurs taux de détection uniquement pour 
la classe Probe. Ainsi, l'application des règles corrélées rares offre une solution intéressante 
dans le contexte de la détection d'intrusions. 



Classe d'attaque 


RAs corrélées rares 


Arbres de décision 


Réseaux bayésiens 


Dos 


98,68 


97,24 


96,65 


Probe 


70,69 


77,92 


88,33 


R2L 


81,52 


0,52 


8,66 


U2R 


38,46 


13,60 


11,84 


Normale 


100,00 


99,50 


97,68 



TAB. 3 - Comparaison des taux de détection obtenus pour les règles corrélées rares versus 
les approches de l'état de l'art. 

8 Conclusion et perspectives 

Dans ce papier, nous avons proposé l'algorithme RcprMiner d'extraction de la repré- 
sentation concise exacte 1ZM.C1Z de l'ensemble A4C1Z des motifs corrélés rares. Nous avons 
introduit également l'algorithme EstMCR d'interrogation de cette représentation ainsi que 
l'algorithme REGENERATIONMCR de dérivation de l'ensemble MCTZ à partir de UMCll. 
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Nous avons démontré expérimentalement le taux de réduction intéressant offert par cette re- 
présentation. L'efficacité de la classification, basée sur les règles d'association corrélées rares, 
a été aussi prouvée dans le cadre de la détection d'intrusions. 

Les perspectives de travaux futurs concernent : (i) La comparaison détaillée des perfor- 
mances d'un algorithme d'extraction de M.C1Z, directement à partir d'une base de transac- 
tions, à celles de RcprMiner suivi par RegenerationMCR pour dériver l'ensemble total 
des motifs corrélés rares à partir de 1ZA4C1Z. Ceci permettra de cerner aussi les situations où 
le recours à la représentation 1ZMC1Z est aussi nécessaire non seulement pour réduire la taille 
des connaissances extraites mais aussi pour rendre possible la fouille des motifs corrélés rares. 
(ii) L'extraction, à partir de IZAiClZ, de formes généralisées de règles d'association présen- 
tant des conjonctions, des disjonctions, et des négations d'items en prémisse ou en conclusion 
ainsi que leur application dans des contextes réels, (iii) L'extension de l'approche proposée 
pour d'autres mesures de corrélation (Kim et al., 2011; Omiecinski, 2003; Segond et Borgelt, 
201 1; Surana et al., 2010; Xiong et al., 2006) en se basant sur l'étude de leurs propriétés res- 
pectives. 
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Summary 

Correlated rare pattern mining is an interesting issue in Data mining. In this respect, the set 
of correlated rare patterns w.r.t. to the bond corrélation measure was studied in a récent work, 
in which the TZCVTZ concise exact représentation of the set of correlated rare patterns was pro- 
posed. However, none algorithm was proposed in order to mine this représentation and none 
experiment was carried out to evaluate it. In this paper, we introduce the new RcprMiner 
algorithm allowing an efficient extraction of 7ZCP7Z. We also présent the IsRCP algorithm 
allowing the query of the TZCVTZ représentation in addition to the RCPREGENERATION al- 
gorithm allowing the régénération of the whole set TZCV of rare correlated patterns starting 
from this représentation. The carried out experiments highlight interesting compactness rates 
offered by TZCVTZ. The effectiveness of the proposed classification method, based on generic 
rare correlated association rules derived from TZCVTZ, has also been proved in the context of 
intrusion détection. 



